早安嗨囉!
今天來聊聊語音辨識的語音訊號,語音到底是怎麼在人體身上產生的,當我們了解人類的發音,就可以為編寫模組找到更好的方向喔!
人類發聲會使用到的器官有肺、氣管、喉、聲帶、舌頭及嘴唇等,他們互相合作,並串連彼此,可以參考下圖:
人類的發音過程是一個極其複雜的生理過程,它使我們能夠表達語言、溝通和交流。這個過程從我們的肺部開始,當我們說話時,我們通過呼吸將空氣送入肺部,然後通過肺部肌肉的收縮,將空氣排出。接著,聲帶在喉嚨的頂部起到關鍵作用,它們開合並產生聲音振動,這些振動形成聲音的基礎。當振動的聲音通過口腔時,人們會利用舌頭、嘴巴、唇部等口腔結構來調整聲音,形成不同的音調和音素。在某些音素中,鼻腔也參與發音,通過調整通風來影響音質。在語音分析中,聲帶的震動週期是很重要的參數,它被稱為基音(pitch)週期,而其對應的頻率就是基頻,他們決定了聲音的高低。
聲道是一個聲學諧振腔,聲帶的震動會在聲道內產生共鳴,根據聲道的形狀跟面積不同,會使最後的訊號產生不同的增益,從而決定發出的音最後長怎樣。透過聲帶震動和聲道調變所發出的音,叫做濁音,通常會對應我們所稱的母音,而聲道也可以產生其他的音,就是利用舌頭和聲道互動,形成氣流和腔壁摩擦產生的音,或者氣流突然被釋放,產生像爆破的音,在語言學中稱作摩擦音及摩擦音,這些通常會運用在清音上,在語言辨識的演算法上,得為清音及濁音訊號特徵上的差異加以分辨。
總而言之,語音訊號可以轉變成頻譜及各式樣表來供模型學習,這部分很偏生物知識及理論,這邊只有大概講解聲學訊號,明天就會講解到模型的部分,請好好期待喔!
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT